1
การเปลี่ยนแปลงสู่สถาปัตยกรรมที่เน้นผลผลิต (Throughput)
AI021Lesson 1
00:00

การคำนวณได้ผ่านการเปลี่ยนแปลงพื้นฐานจาก ปรับให้ลดความหน่วงเวลา (Latency-Optimized) การออกแบบโปรเซสเซอร์แบบ CPU ไปยัง เน้นผลผลิต (Throughput-Oriented) สถาปัตยกรรมของ GPU โดยที่โปรเซสเซอร์แบบ CPU เหมือนจักรยานส่งของความเร็วสูง (เร็วสำหรับสินค้าชิ้นเดียว) ในขณะที่ GPU เหมือนเรือขนส่งขนาดใหญ่: แม้จะเคลื่อนที่ช้าต่อหนึ่งชิ้น แต่สามารถบรรทุกภาชนะ 50,000 ใบพร้อมกัน

1. ความหน่วงเวลาเทียบกับผลผลิต

โปรเซสเซอร์แบบ CPU ถูกออกแบบมาเพื่อลดระยะเวลาในการเสร็จสิ้น (time-to-completion) สำหรับลำดับคำสั่งเดี่ยวๆ โดยใช้เทคนิคการคาดการณ์สาขาที่ซับซ้อน ในทางกลับกัน, หน่วยประมวลผลกราฟิก (GPU) ถูกออกแบบมาเพื่อเพิ่มประสิทธิภาพ "งานต่อวินาที" โดยการประมวลผลหลายพันเธรดพร้อมกัน แลกเปลี่ยนความเร็วของเธรดเดี่ยว เพื่อให้ได้ผลผลิตรวมที่มหาศาล

CPU (ปรับให้ลดความหน่วงเวลา)ควบคุมแคชขนาดใหญ่ (L3)หน่วยคำนวณตรรกะ (ALU)GPU (เน้นผลผลิต)ALU จำนวนมากขนาดเล็ก

2. การจัดสรรทรานซิสเตอร์

GPU ให้ผลผลิตคำสั่งและแบนด์วิธของหน่วยความจำสูงกว่า CPU ภายใต้ข้อจำกัดด้านราคาและพลังงานที่ใกล้เคียงกัน ซึ่ง GPU ถูกออกแบบเฉพาะสำหรับการคำนวณแบบขนานสูง และใช้ทรานซิสเตอร์มากกว่าใน หน่วยประมวลผลข้อมูล (ALUs)ในขณะที่ CPU ใช้ทรานซิสเตอร์มากขึ้นในการเก็บข้อมูลในแคชและควบคุมการไหลของข้อมูล

3. การพัฒนาของ CUDA

สถาปัตยกรรมการประมวลผลอุปกรณ์รวม (CUDA) ถูกแนะนำโดยบริษัท NVIDIA ในปี 2006 มันเป็นแพลตฟอร์มการประมวลผลแบบขนานและแบบโมเดลการเขียนโปรแกรมที่ทำให้ประสิทธิภาพเพิ่มขึ้นอย่างมาก โดยใช้พลังของ GPU โดยไม่ต้องพึ่งพา API ด้านกราฟิก

main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>